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基于 灰 关联 分 析 的 V-MDAV 算法 研究 ' 
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摘 要 : 距离 度量 会 影响 微 聚集 算法 的 聚 类 效果 ， 为 了 提高 算法 的 隐私 保护 能 力 ， 采 用 灰 关联 分 析 中 的 均衡 接近 度 替 
代 V-MDAV 算法 中 的 欧 色 距离 度量 记录 间 的 距离 ， 关联 分 析 的 V-MDAV 算法 ， 即 V-GRAWV(variable-size 
grey relation to average vector) 算 法 。 由 于 均衡 接近 度 既 包 含 灰 关联 度 对 整体 接近 性 的 测度 ， 又 具有 均衡 度 对 序列 均衡 
性 测度 的 特点 ， 克 服 了 欧 氏 距离 受 局 部 奇异 值 影响 较 大 的 问题 。 因 此 V-GRAV J V-MDAV 相近 
的 同时 ， 较 大 程度 地 降低 隐私 泄露 风险 ， 实 验证 明 算 法 的 有 效 性 
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Research on V-MDAYV algorithm based on grey relational analysis 


: Zhang Qishan, Zheng Lijun 
i.i (School of Economics & Management, Fuzhou University, Fuzhou 350108, China) 


Abstract: Distance measure can affect the clustering effect of microaggregation algorithms, in order to improve the privacy 
< — preserving ability of the algorithm, the Euclidean distance in the V-MDAYV algorithm are replaced by the balanced adjacent 
degree in grey relational analysis method to measure the distance between records, and the V-MDAV algorithm based on grey 
correlation is proposed, called V-GRAV (variable-size grey relation to average vector) algorithm. The balanced adjacent degree 


includes the characteristic of the measure of grey relational degree to the whole approximation and balanced degree to the 


sequence balanced degree, which can eliminate the point correlation tendency. It overcomes the problem that the Euclidean 
distance is greatly influenced by the local singular value. Therefore, the V-GRAV algorithm can reduce the privacy disclosure 
risk while ensuring that the information loss is similar to V-MDAV algorithm. Our experiments demonstrate that the algorithm 
is effective. 
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E(Microaggregation) 5t Hd TAGER 大 匿名 化 以 解决 泛 化 技术 
在 数值 型 数据 应 用 上 的 不 足 。 其 中 ，MDAYV 算法 是 一 种 实现 数 
随 着 数据 挖掘 技术 的 成 熟 ， 利 用 数据 获取 有 用 信息 或 知识 ” 值 型 数据 匿名 化 十 分 重要 且 性 能 较 好 的 的 微 聚集 算法 。 该 算法 
越 来 越 受到 学 术 界 及 业界 的 关注 。 但 与 此 同时 ,个 人 的 习惯 、 已 被 证 明 在 所 得 到 的 等 价 组 的 同 质 性 方面 表现 最 好 。 然 而 
等 不 愿 为 人 所 知 的 信息 都 以 惊人 速度 被 推断 并 被 消费 ， 因 MDAV(maximum distance to average vector) 作 为 固定 尺寸 的 启 
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此 隐私 保护 问题 日 渐 突出 。 发 式 算法 , 在 某 些 情况 下 , 它 会 产生 远离 最 优 的 Kk 分 组 。 为 此 ， 
为 了 解决 隐私 保护 问题 ，Samarati 等 人 由于 1998 年 提出 上 ”一 种 新 的 启发 式 多 元 微 聚 集 方法 V-MDAV(variable-size 
匿名 技术 ， 该 技术 要 求 发 布 的 数据 中 至 少 存在 上 条 不 可 区 分 的 ”maximum distance to average vector)ig 应 运 而 生 ， 该 方法 形成 可 
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记录 ， 使 攻击 者 无 法 通过 发 布 的 数据 回溯 个 人 ， 防 止 隐私 信息 变 尺 寸 大 小 的 等 价 组 ， 使 分 组 更 自然 地 适应 数据 集 分 布 ， 增 加 
与 个 人 的 匹配 。 因 此 ， 撕 匿名 技术 在 一 定 程度 上 保护 了 用 户 的 组 内 同 质 性 
个 人 隐私 。 隐 私 保护 在 实现 过 程 中 , ECCE FRI ASIE EE CAD, 晶 是 V-MDAV 算法 采用 欧 氏 距离 度量 记录 间 的 距离 , 而 欧 
属性 值 泛 化 域 的 确定 一 直 是 一 个 难以 解决 的 问题 ， 而 且 对 数 氏 距 离 在 度量 记录 间距 离 时 受 奇异 值 影响 较 大 , 因此 , V-MDAV 
值 型 数据 的 泛 化 易 导 致 语义 缺失 ， 造 成 不 必要 的 信息 损失 。 对  ” 算法 在 一 定 程度 上 会 影响 隐私 保护 效果 。 为 此 , 根据 MDAYV $E 
此 ， 很 多 学 者 将 SDC(statistical disclosure controD 技 术 中 的 微 聚 法 基础 上 引入 均衡 接近 度 提 出 GRAV 算法 中 的 思想 ， 本 文 提 出 
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了 V-GRAV 算法 , 该 算法 在 V-MDAV 算法 基础 上 , 将 均衡 接近 
度 代替 欧 氏 距离 进行 k- 聚 集 。 均 衡 接近 度 作 为 灰 关 联 分 析 的 改 
进 方法 ， 其 与 数理 统计 中 的 回归 分 析 等 方法 不 同 ， 它 对 样本 数 
据 量 及 样本 规律 性 不 做 限制 ， 而 且 计 算 量 小 ， 其 量化 结果 与 定 
性 分 析 的 结果 一 致 ， 特 别 适 用 于 小 样本 、 无 明显 规律 数据 的 研 
究 外 。 该 算法 具有 灰 关 联 分 析 方 法 不 受 数 据 分 布 规律 性 影响 的 
特点 ， 同 时 克服 了 欧 氏 距离 和 灰 关 联 分 析 方 法 存在 的 点 关联 倾 
向 。 因 此 将 均衡 接近 度 用 于 衡量 记录 间 的 距离 进行 匿名， 能 
够 在 保证 信息 损失 量 与 V-MDAV 算法 相当 的 


时 , 较 大 程度 地 
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降低 隐私 泄露 风险 。 图 1 MDAV 算法 运用 于 数据 集 S 时 的 输出 (1=3) 
Fig.1 output of MDAV algorithm applied to data set S 
1 ”相关 工作 


1.1 V-MDAV 算法 

最 优 多 变量 微 集聚 问题 不 能 在 多 项 式 时 间 内 精确 求解 , 因 
此 多 变量 微 聚集 是 NP-hard 问题 外， 其 唯一 可 行 的 多 变量 微 聚 
二 一 集 方法 是 启发 式 的 。MDAV 算法 Ho40 是 著名 的 固定 尺寸 的 启发 
Z 式 算 法 。 该 算法 产生 固定 基数 为 上 的 等 价 组 ， 然 而 ，MDAYV ME 
S 为 固定 尺寸 的 启发 式 算法 ， 在 某 些 情况 下 ， 它 会 产生 远离 最 优 
的 大 分 组 。 
为 消除 不 自然 大 分 组 的 影响 ， Solanas 等 人 后 提出 V- 


— MDAV(Variable-size maximum distance to average vector) 算 法 ,该 X2. V-MDAV 算法 运用 于 数据 集 S 时 的 输出 (=3) 
T 算法 能 适应 数据 集 分 布 ， 产 生 更 加 自然 的 分 组 ， 增 加 组 内 同 质 Fig.2 output of V- MDAV algorithm applied to data set S 
~ TE. 此外， Solanas 等 人 提出 使 用 遗传 算法 59 微 聚集 多 达 100 条 1.2 灰 关 联 分 析 


记录 的 小 型 多 元 数据 集 ， 提 出 使 用 新 的 N 元 编码 来 处 理 微 聚 集 灰 关 联 分 析 是 邓 聚 龙 教授 所 提出 的 灰色 系统 理论 中 十 分 重 
的 多 变量 性 质 ， 并 进行 了 一 套 完整 的 实验 来 确定 遗传 算法 主要 ”要 的 方法 ， 灰 关联 分 析 通 过 序列 曲线 几何 形状 的 相似 程度 判断 
参数 的 最 佳 值 ， 即 种 群 大 小 ， 交 叉 率 ， 变 异 率 等 。 然 而 ， 该 方 ” 其 相关 性 ， 曲 线 越 接近 则 两 序列 的 关联 度 越 大 。 并 且 灰 关联 分 
法 只 适用 于 小 数据 集 。 为 了 解决 该 问题 , 文献 [13] 将 遗传 算法 与 。” 析 方 法 对 数据 量 及 其 分 布 规律 没有 要 求 ， 其 量化 结果 与 定性 分 
V-MDAV 算法 相 结 合 ， 利 用 V-MDAV 算法 对 原始 大 数据 集 划  ” 析 结 果 也 不 会 出 现 出 入 ， 可 用 于 解决 不 确定 性 问题 和 非 线性 问 
分 成 遗传 算法 可 处 理 的 较 小 子 集 ， 而 后 使 用 遗传 算法 来 获得 微 ” gH. 
集聚 数据 集 。Huang 等 人 0 结合 微 聚 集 和 曲面 细 分 的 优点 ， 提 传统 的 灰 关 联 分 析 法 存在 着 局 部 点 关联 倾向 ， 张 岐山 教授 
出 Hybrid-VMDAV 算法 解决 位 置 隐私 问题 , 同时 在 I- 多 样 性 原 ”将 均衡 度 引 入 灰 关 联 度 提 出 均衡 接近 度 053 的 概念 ， 能 有 效 消除 
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则 指导 下 ， 提 出 了 一 种 -多 样 性 的 VMDAV CLD-VMDAVO 作 点 关联 倾向 ， 克 服 传统 灰 关 联 分 析 方 法 存在 的 不 足 。 使 用 均衡 
为 改进 ， 有 效 地 防止 时 间 和 空间 隐私 属性 的 泄露 。 接近 度 作为 记录 之 间 的 度量 方法 在 聚 类 算法 中 已 经 得 到 成 功 应 
相 比 V-MDAV 算法 , V-GRAV 算法 可 以 产生 更 自然 的 x 分 用， 文献 [16] 中 利用 均衡 接近 度 度量 数据 间 的 相似 性 来 克服 参 
组 ， 两 种 算法 的 分 组 情况 见 下 列 例子 : 数 敏感 性 问题 ， 提 高 了 传统 谱 罕 类 算法 的 性 能 。 李 莉 琼 1 等 人 
例 1 设 S 为 由 9 个 具有 2 个 属性 的 记录 组 成 的 数据 集 。 提出 一 种 将 均衡 接近 度 结合 到 FCM 中 的 新 算法 ， 从 全 局 判断 


S={(2.4,3),(1.68,4.9),(3.18,5.54),(5.32,3.6),(18.68,11.49),(20. 数据 间 的 相似 性 程度 的 同时 ， 减 弱 局 部 强 关 联 性 导致 的 影响 。 
14,9.56),(19.85,10.33),(21.28,10.9),(23,11.5)} 定义 1 KAKE. 设 铸 为 灰 关 联 因子 集 ，X。e X 为 参考 
图 1 描绘 了 当 厂 3 时 ,数据 集 S 使 用 MDAV 算法 生成 3 个 ”序列 ，XesX 为 比较 序列 ， X={x%(k),keK}， 
等 价 组 。 其 中 圆圈 表示 数据 集 S 的 记录 ， 三 角形 表示 数据 集 S X,-(x(k)keK), Hw i={1,2,3,.. h}, K={1,2,3,.. n}; 
的 整体 质心 。 从 图 1 中 可 以 直观 看 出 标 有 红色 的 组 非常 分 散 ， min min|x,() -x,() | & max. max [x5 x; | 
导致 整个 3 分 组 变 差 。 这 个 例子 表明 ,MDAYV 的 固定 大 小 的 特 rG ().x; 0) = — ik 
性 可 能 无 法 适当 地 调整 生成 的 磊 分 组 到 特定 的 数据 集 。 图 2 中 
V-MDAV 算法 根据 数据 分 布 情况 进行 聚 类 ， 生 成 2 个 等 价 组 ， (1) 
很 明显 ， 相 较 图 1 聚 类 更 显 合理 。 由 此 可 得 ，VMDAV 算法 能 ， 

, Mur (Xp X) 2 (0 n) r (k), xk) 2) 
够 适应 微观 数据 集中 记录 的 自然 分 布 来 改进 MDAV 的 结果 。 rem 


| X08 一 x) | to mar ia | xg C9 - x00 | 
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其 中 : 《为 分 辩 系 数 ，r (Xo, 加) 为 参考 序列 而 和 比较 序列 总 的 
灰 关 联 度 。 

定义 2 均衡 度 。 给 定 R 为 灰 关 联系 数 序列 集 ， 其 中 ， 
R, ={r(x (k) XK), Kk eK}, K-(1,,2,3,..., nb i={],2,3,......, 
hy, Wk 


pK) = r (k), x, ()) / Yrs, x0) (3) 
k=1 


Exo XAY. p, (In p;(k)]/ Inn (4) 


BR 为 参考 序列 名 和 比较 序列 总 的 均衡 度 ，Inn RAH 
最 大 值 ， 同 时 ， 由 式 (3) 可 知 疡 ( 包 的 取 值 范围 为 (0, 1). 

定义 3 均衡 接近 度 。 设 民 为 灰 关 联 因子 集 ，Xo EX 为 参 
考 序列 ，X; eX 为 比较 序列 ，r (Xo, 如 为 参考 序列 和 Wi 和 比较 序 
列 互 的 灰 关 联 度 , BC 为 参考 序列 钾 和 比较 序列 五 的 均衡 度 ， 
则 


B(X,, X) - E(X, X) x r(X X;) (5) 
B(Xo, X) 23225 EY] 而 和 比较 序列 总 的 均衡 接近 度 ， 均 衡 
接近 度 越 大 ， 则 比较 序列 与 参考 序列 相关 性 越 大 。 


2 V-GRAV 算法 


2.1 算法 描述 
V-GRAV 算法 采用 均衡 接近 度 作 为 记录 之 间距 离 的 衡量 。 
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给 定 zA m 条 记录 的 组 g， 最 接近 组 g 的 未 分 配 记 录 €max» 
Emax 与 组 g 的 最 大 均衡 接近 度 度 bin 以 及 €max 与 未 分 配 记录 的 最 大 
均衡 接近 ER bouts 公式 如 下 : 


b. = max max b(e$ e.) 
in " ] L^ (6) 
Jj el Ni el[ll,ml] 
E 8 
e =arg max max b(e?,e.) 
ma — "Cjenw Jietbm ! 1 0) 
un 

b z jell, ed ag Dewt) (8) 


max 7€j 


其 中 : egi 表示 组 g 中 的 第 i 条 记录 ,ej 表 示 未 分 配 数 据 集 的 第 

j 条 记录 ,Nu 表示 未 分 配 数据 集 的 数量 。 如 果 满 足 等 式 (7) 的 

记录 数 不 止 一 条 ， 则 随机 选取 其 中 一 条 记录 作为 max - 

最 后 ， 判 断 是 否 要 将 ena 加 入 组 g 中 ， 需 进行 bin bout 的 
X (9) 给 出 了 判定 标准 : 

YES if yb ob 


Add Record = i (9) 
NO otherwise 


比较 。 


为 了 提高 VGRAV 的 适应 性 ， 必 须 调整 增益 因子 y. fATU 
增益 因子 最 佳 值 的 确定 并 不 简单 ， 而 且 由 于 篇 幅 限 制 ， 本 文 不 
加 以 讨论 。 重 复 扩 展 过程 直 到 组 大 小 等 于 2k - 1 或 表达 式 (9) 
中 的 条 件 不 被 满足 , 因为 它 在 文献 [11] 中 表明 , 最 佳 的 分 组 为 
每 个 组 包含 上 和 2k-1 个 记录 。 
通过 对 比 发 现 V-GRAV 算法 与 V-MDAV 算法 主要 区 别 于 


于 均衡 接近 度 既 包含 灰 关 联 度 对 整体 接近 性 的 测度 ， 又 具有 
均衡 度 对 序列 均衡 性 测度 的 特点 ， 因 此 将 均衡 接近 度 引 入 到 微 
聚集 算法 中 ， 提 出 V-GRAV (variable-size grey relation to average 


以 下 几 个 方面 : 
a) V-GRAV 算法 通过 均衡 接近 度 来 度量 记录 间 的 相似 性 ， 
而 V-MDAV 算法 采用 欧 氏 距离 来 测度 记录 间 的 距离 。 均 衡 接近 


vector) 微 聚集 算法 ， 能 为 V-MDAV 微 聚集 算法 的 实现 方法 提供 
种 新 思路 。 下 面 详 细 描述 该 算法 的 步骤 : 
2.1.1 组 生成 
输入 : 原始 数据 集 S， 匿 名 模型 尺寸 k， 分 辨 系数 &， 增 益 
因子 yo 
输出 : 经 过 处 理 后 的 匿名 数据 表 S’。 


1、 计 算数 据 集 S 中 所 有 记录 间 的 均衡 接近 
2、 计 算数 据 集 S 的 质心 C; 


Ir HE D; 


3、 在 未 分 配 记录 中 找 出 距离 质心 C 均衡 接近 度 最 小 的 记 
录 T; 

4 Ur 0 找 出 与 7 均衡 接近 度 最 大 的 el 个 记录 ， 
将 这 些 记录 组 成 一 个 等 价 组 ; 

5、 扩 展 组 ( 见 2.1.2) ; 


6、 继 续 步 又 3， 直 到 未 分 配 记录 小 于 2k; 

7、 如 果 剩 余 记录 数 小 于 kk， 则 将 剩余 记录 分 配 到 其 最 近 的 
子 集 ; 否则 ， 剩 余 记 录 形 成 最 后 一 个 子 集 。 
2.1.2 扩展 组 

扩展 步骤 允许 V-GRAV 适应 记录 的 自然 分 布 。 在 生成 上 条 
记录 的 子 集 之 后 ， 扩 展 步 又 找到 可 能 加 入 子 集 的 候选 记录 ， 
且 如 果 这 些 候选 记录 中 的 任何 一 个 比 其 他 未 分 配 的 记录 更 接近 
子 集 ， 则 将 它们 添加 到 子 集中 。 扩 展 步骤 的 工作 原理 如 下 : 


度 综 合 考虑 了 粒 关 联 度 和 点 关联 度 ， 因 此 既 包 含 了 对 序列 间 点 
的 距离 接近 性 的 测度 , 又 包含 了 对 整体 的 无 差异 性 接近 的 测试 。 
b) V-GRAV 算法 中 的 均衡 接近 度 度量 的 是 记录 间 的 相似 性 ， 
均衡 接近 度 越 大 , 两 条 记录 越 相 似 , 距离 越 接近 , 反之 则 越 远 。 
而 V-MDAV 算法 中 的 欧 氏 距离 测度 的 距离 越 大 ， 相距 越 远 , 与 
均衡 接近 度 刚 好 相反 。 

2.2 算法 评估 
本 文 提出 V-GRAV. 算法 并 将 其 应 用 于 隐私 保护 中 ,数据 发 
布 隐私 保护 要 求 算法 在 达到 隐私 保护 目的 的 同时 ， 要 保证 数据 
的 可 用 性 。V-GRAV 算法 实现 了 匿名 化 技术 的 同时 ， 由 于 通过 
等 价 组 质心 蔡 代 组 内 记录 ， 会 产生 数据 失真 ， 降 低 了 数据 的 可 
用 性 。 因 此 ， 衡 量 本 文 提 出 的 V-GRAV 算法 的 性 能 表现 ， 需 要 
从 匿名 表 的 信息 损失 度 和 隐私 泄露 风险 两 个 角度 出 发 来 评价 微 
聚集 算法 的 有 效 性 。 

2.2.1 匿名 表 信 息 损失 度 

计算 信息 损失 的 方法 有 很 多 , 文献 错误 ! 未 找到 引用 源 。 中 
的 度量 方法 就 是 一 种 度量 连续 型 数据 的 常用 方法 。 本 文 引 用 该 
文献 中 的 IL Cinformation loss) 来 表示 信息 损失 ， 计 算 一 个 匿 
名 数据 表 的 信息 损失 度 的 过 程 如 下 : 

1) 计算 原始 数据 表 的 总 体 同 质 性 测度 和 SST 

假设 原始 数据 表 有 n 条 记录 数 ， 数 据 表 经 过 匿名 划分 为 h 
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个 等 价 组 ， 每 个 等 价 组 的 记录 数 为 m, W SST 计算 过 程 如 下 : 


= 
W--Yyh W 10 
aa, (10) 
nm. RA 
SST = Y] ,X,LdQ, -W) (11) 


其 中 ， 觅 为 原始 数据 表 中 的 第 7 条 记录 ， 式 〈10) 则 计算 整个 

原始 数据 表 的 均值 。 式 〈11) 中 的 Wi o EU PR LR 

等 价 组 里 的 第 j 条 记录 。SST 将 匿名 表 中 的 所 有 记录 与 原始 数 

据 表 均 值 的 差 值 求 和 ， 得 出 原始 数据 表 的 总 体 同 质 性 测度 和 。 
2) 计算 匿名 化 后 等 价 类 的 同 质 性 测度 和 SSE 


1 a 
Wu nsn a2) 
l 
h m, 
SSE- Y) 2 jL aW; -W) (13) 


其 中 ， 式 (12) 计算 每 个 等 价 组 的 均值 ， 并 将 每 个 等 价 组 的 记 
录 与 该 等 价 组 的 均值 进行 差 值 计算 求 和 得 出 匿名 化 后 等 价 类 的 
同 质 性 测度 和 SSE。 

3) 计算 匿名 化 后 的 总 信息 损失 度 IL 


E 
-59E a4) 
SST 


上 述 可 知 ， 对 于 一 个 给 定 的 静态 数据 集 , 在 L 评价 模型 


下 , 其 总 体 同 质 性 SST 是 固定 值 , 而 SSE 值 则 因 大 划分 情况 不 
同 而 发 生变 化 。 可 见 ，SSE 在 IL 评判 算法 的 优 劣 中 占 主导 地 
位 ， 若 等 价 组 的 组 内 同 质 性 越 大 ， 其 SSE 值 就 越 小 ， 匿 名 后 信 
EMR EE GER] o 

2.2.2 匿名 表 隐 私 泄露 风险 

概率 记录 链接 方法 (probabilistic record linkage) 和 基于 吕 
离 的 记录 链接 隐私 泄露 风险 评价 模型 DLD (distance linked 
disclosure risk) 是 评价 隐私 泄露 风险 最 广泛 使 用 的 方法 [9， 
于 基于 距离 的 记录 链接 方法 更 易于 实施 和 操作 ， 因 此 本 文采 用 
DLD 模型 进行 V-GRAV 算法 隐私 泄露 风险 的 评价 。 

DLD 模型 计算 原始 记录 和 受 保护 记录 之 间 的 距离 , 其 使 用 
记录 链接 来 反映 匿名 记录 在 多 大 程度 上 可 以 被 重新 识别 。 假 设 
给 定 含 有 nn 个 记录 的 原始 数据 集 SG s2 .…, sn)， 其 匿名 后 数据 
RI S? Csr’, 52, .…, S) ， 对 于 匿名 数据 集 $ "中 的 记录 sis dl 
算出 原始 表 S 中 距离 该 记录 最 近 两 个 记录 ， 如 果 这 两 个 记录 中 
含有 si 匿名 前 的 真实 记录 ww， 则 称 元 组 ss 链接 成 功 。 

假设 匿名 表 中 能 够 链接 成 功 的 记录 数 为 linked_records， 而 


[um 


DLD = linked _ records / total _ records (15) 
3 实验 


3.1. 实验 环境 
3.1.1 数据 集 

本 文 使 用 Tarragona, Census 和 EIA 三 组 经 典 的 数据 集 作 
为 实验 的 数据 集 。 其 中 ，Tarragona 数据 集 为 1995 年 塔 拉 戈 纳 


区 834 家 企业 的 信息 ; Census 数据 集 为 2000 F3 


国 统计 局 


g 
供 的 人 口 普 查 信息 ; EIA 数据 集 为 1996 年 美国 能 源 信息 管 


供 的 美国 能 源 信息 。 三 个 数据 集 分 别 包 含 12、12、9 个 
性 和 一 个 敏感 属性 以 及 834、1080、4092 条 记录 数 。 
3.1.2 实验 软 /硬件 环境 

硬件 环境 : Inte Core 3.30 GHz CPU, 4096 MB RAM, 
Windows 7 32 位 操作 系统 。 

编程 环境 : Mathworks Matlab R2014a。 
3.2 ”信息 损失 度 分 析 


IR CHO 计算 出 V-MDAV 算法 与 VGRAYV 算法 在 不 同 


k 值 下 的 信息 损失 度 ， 实 验 结果 如 图 3 所 示 。 其 中 ，V-MDAV 
算法 的 实验 结果 用 实 线 表 示 ， 本 文 提 出 的 算法 V-GRAV 用 虚线 
表示 ， 本 文 增益 因子 取 0.2， 分 辨 系数 取 1.8， 增 益 因 子 和 分 辨 
系数 的 确定 较为 复杂 ， 由 于 篇 幅 限 制 ， 本 文 不 作 讨 论 。 


——— Census V-MDAV 
Une Census V-GRAV 
一 入 一 Tarragona V-MDAV 
人 Tarragona V-GRAV . 
—©Ə— ElAVMDAV | A 
UUO- EIA V-GRAV een 


Information Loss/% 


Ph, 表示 等 价 组 的 最 小 尺寸 ， 随 着 的 增 大 ， 信 息 
损失 度 呈 上 升 趋势 ， 这 是 由 于 等 价 组 扩张 ， 组 内 的 记录 数 增加 
使 得 组 内 同 质 性 减 小 ， 致 使 信息 损失 不 断 上 升 。 

二 于 不 同 的 数据 身 
言 息 损失 度 最 大 ，Census 其 次 ，EIA 最 小 。 其 中 三 个 数据 集 的 
记录 数 关系 为 : Tarragona < Census < EIA， 在 k 值 相同 的 情况 


4 5 6 7 8 9 10 k 


Comparison of information loss between V-MDAV 
and V-GRAV algorithm k anonymization 


3  V-MDAV 5 V-GRAV 算法 大 匿名 化 信息 损失 比较 


Fig.3 Loss comparison of k-anonymity information between V-MDAV 


and V-GRAV algorithm 


, 由 图 中 可 得 三 个 数据 集中 Tarragona 的 


TL 


RRK, ERSEM ART ERAR, SEE 
取 同 质 性 更 高 的 记录 ， 使 得 组 内 同 质 性 更 高 ， 因 此 EIA 数 


匿名 表 中 记录 总 数 为 total records, 那么 隐私 泄露 风险 的 度量 为 ; 


匿名 后 的 信息 损失 度 更 小 。 
同时 ， 对 比 V-MDAV 和 V-GRAV 两 种 算法 发 现 : V-GRAV 
算法 的 信息 损失 度 高 于 V-MDAV 算法 。 由 于 在 信息 损失 度 计算 
过 程 中 , 采用 的 是 欧 氏 距离 进行 度量 , 更 符合 V-MDAV 算法 等 
分 过 程 , 由 此 V-MDAV 算法 的 信息 损失 度 更 低 , 但 两 种 
算法 间 的 信息 损失 度 差距 幅度 不 超过 5%， 因 此 V-GRAV 的 数 
性 得 以 保证 。 
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12r z — * " " z 
—E— FIA V-MDAV y. 60 —*— Census V-MDAV | 
114 ~ ww yc A 7*7 Census V-GRAV | 
` 10) .©-... ird P Ito» : 3 ak RN 
E Ir Ba 0000 0S 
E "NN : | 
8 25 —— tan A 有 
E 10 
E s O4 5 6 7 8 3$ ik 
al (a) Census Disclosure V-MDAV AND V-GRAV 
4 j : i à : = 6 —A— Tarragona V-MDAV | 
Comparison of intormatlon Toss jegre ius Sd ina Taragona V-GRAV | 
of four algorithms in EIA data set ` 
H4 EIA 数据 集 下 4 种 算法 天 匿名 化 信息 损失 比较 a^ 
Fig.3 Loss comparison of k-anonymity information of four algorithm in E 3f 
ELA data set Figi 
于 三 种 数据 集 信 息 损 失 度 趋 势 相 同 ， 故 图 4 选择 其 中 一 "m 
种 数据 集 EIA) 用 于 分 析 。 由 图 4 可 知 ,可 变 尺寸 的 微 聚集 算 0$ 4 5 6 7 8 9 ik 
法 信息 损失 度 小 于 固定 尺寸 的 微 聚 集 算法 的 信息 损失 度 。 这 是 (b) Tarragona Disclosure V-MDAV AND V-GRAV 
于 可 变 尺 寸 的 微 聚 集 算法 能 够 适应 微观 数据 集中 记录 的 自然 | 
分 布 情 况 进 行 聚 类 ， 产 生 更 合理 的 聚 类 结果 。 NN 79" EIA V-GRAV | 
且 两 种 GRAV 算法 的 信息 损失 度 高 于 两 种 MDAV 算法 ， E 
同样 是 由 于 在 信息 损失 度 计算 过 程 中 ， 采 用 的 是 欧 氏 距离 进行 中 | 
度量 ， 更 符合 MDAV 算法 等 价 组 划分 过 程 ， 由 此 两 种 MDAV i" 
算法 的 信息 损失 度 更 低 。 | 
3.8 ”隐私 洪 露 风险 分 析 PA 
采用 式 C150 计算 出 V-MDAV 算法 和 V-GRAV. 算法 的 隐私 oa a a a S 
泄露 风险 ， 见 图 5。 图 5 的 (a)~(e) 中 分 别 展示 了 在 Census, (c) EIA Disclosure V-MDAV AND V-GRAV 
Tarragona, EIA 3 个 数据 集 下 2 种 算法 的 隐私 泄露 风险 随 值 € 5. V-MDAV 与 V-GRAV 算法 大 匿名 化 隐私 泄露 风险 比较 
变化 的 情况 。 实 线 为 VVMDAV 算法 ， 虚 线 为 V-GRAV 算法 。 Fig.5 Privacy leakage risk comparison of k-anonymity information 
图 S(a)-(c) bzw f 3 种 数据 集 下 隐私 泄露 风险 趋势 相同 ， between V-MDAV and V-GRAV algorithm 
且 随 着 k 的 增加 ， 隐 私 泄露 风险 呈 下 降 趋 势 ， 由 于 上 增加 ， Mc BEEN 
对 于 给 定 的 静态 数据 集 ， 随 着 等 价 类 内 元 组 的 增加 ， 类 内 同 质 “A EIA MDAV 
性 减 小 ， 信 息 失真 度 大 ， 攻 击 者 回 湖 用 户 身份 的 可 能 性 降低 ， sw COT sacma] 
使 得 隐私 泄露 风险 下 降 。 同 时 可 以 看 到 整体 的 隐私 泄露 风险 : B 50s 
Tarragona < Census < EIA。 因 为 数据 可 用 性 和 隐私 泄露 风险 是 i dj B: 
对 立 的 概念 ， 数 据 可 用 性 越 高 ， 隐 私 泄露 风险 越 大 。 7$... 
最 后 ， 对 比 V-MDAV 算法 ，V-GRAV 算法 实现 更 低 的 隐私 E 30 Dex. 
泄露 风险 度 。 这 是 由 于 DLD 评价 模型 在 计算 链接 距离 时 直接 E agl B ccc" 
采用 欧 氏 距离 公式 ,与 V-GRAV 算法 划分 等 价 类 的 标准 不 一 致 。 
综合 以 上 原因 ， 用 V-GRAV 算法 匿名 后 的 数据 集 通过 DLD Bi US 4 5 6 7 8 9 ik 
型 往往 链接 不 到 的 真实 记录 ， 隐 私 泄露 风险 较 低 。 
于 三 种 数据 集 隐私 泄露 风险 趋势 相同 ， 故 图 6 选择 其 中 图 6 EIA 数据 集 下 4 种 算法 -匿名 化 隐私 泄露 风险 比较 
一 种 数据 集 EIA) 用 于 分 析 。 Fig.6 Privacy leakage risk comparison of k-anonymity information of 
对 比 图 6 中 4 种 算法 , 两 种 GRAV 算法 的 隐私 泄露 风险 低 four algorithm in EIA data set 
于 两 种 MDAV 算法 ， 同 样 是 由 于 DLD 评价 模型 与 两 种 GRAV 同时 ， 由 图 4 和 6 可 知 ， 可 变 尺寸 的 微 聚 集 算法 隐私 泄露 


算法 划分 等 价 类 的 标准 不 一 致 。 风险 与 固定 尺寸 的 微 聚 集 算法 相差 无 几 情 况 下 ， 可 变 尺寸 的 微 
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聚集 算法 信息 损失 度 小 于 固定 尺寸 的 微 聚 集 算法 的 信息 损失 度 。 e) 信 息 损 失 度 与 隐私 泄露 风险 旦 对 立 关 系 ， 信 息 损失 度 越 
可 证 明 可 变 尺寸 的 微 聚集 算法 的 有 效 性 。 大 ， 隐 私 泄露 风险 越 小 。 

3.4 V-GRAV 算法 综合 评价 总 之 ， 由 实验 结果 可 知 : V-GRAV 算法 可 用 于 实现 kK- 匿名 


模型 并 能 得 到 具有 较 强 隐私 保护 能 力 的 匿名 表 。 


EIA Lost MDAV vs GRAV 
RI EIA Disclosure MDAV vs GRAV 4 ”结束 语 
C FIA Lost V-MDAV vs V-GRAV 

EJ EIA Disclosure V-MDAV vs V-GRAV 


AR 


o2 


距离 度量 是 微 聚 集 算法 在 进行 大 聚 类 的 关键 问题 ， 针 对 欧 
氏 距 离 在 距离 度量 过 程 中 易 受 奇异 值 影响 ， 存 在 点 关联 倾向 的 
问题 , 本 文 根 据 将 均衡 接近 度 引 入 MDAYV 算法 能 提高 算法 隐私 


Difference/% 
N 
© Ua — in r2 ta OO UA. 4 CA CA 


1 保护 能 力 的 思想 ,提出 一 种 新 的 多 元 微 聚 集 方法 V-GRAV 算法 。 

0 V-GRAV 算法 采用 均衡 接近 度 取代 V-MDAV 算法 中 的 欧 氏 距 

- 离 进行 记录 间距 离 的 度量 ， 均 衡 接近 度 包含 整体 接近 性 的 测度 

Differences between (he two indexs of” i 和 序列 均衡 性 测度 ， 能 消除 点 关联 倾向 ， 使 得 V-GRAV 算法 能 

We a 够 在 保证 信息 损失 度 与 V-MDAV. 算法 接近 的 情况 下 降低 隐私 

图 7 EIA 数据 集 下 4 种 算法 在 2 个 指标 差 值 比较 泄露 风险 。 然 而 本 文 的 研究 尚 存在 不 足 之 处 ， 计 划 在 未 来 研究 

Fig.7 Differences between two indexs of four algorithms in ELA data set 并 改进 以 下 几 点 : a) 详 细 分 析 增 益 因子 确定 给 定数 据 集 的 最 优 
图 7 中 ，4 种 算法 两 两 计算 信息 损失 度 差 值 和 隐私 泄露 风 ” 值 ;b) 本 文 提 出 的 算法 以 均衡 接近 度 为 度量 方式 ， 而 均衡 接近 度 

险 差 值 〈( 取 正 值 ) 。 其 中 ， 蓝 色 模 块 表示 固定 尺寸 微 聚集 算法 。 适用 于 数值 型 数据 ， 因 此 V-GRAV 算法 不 适用 于 分 类 型 属性 ， 


2 个 指标 的 差 值 ， 橙 色 模 块 表 示 可 变 尺 寸 微 聚集 算法 2 个 指标 在 今后 的 研究 中 ， 需 要 考虑 如 何 使 用 灰 关 联 方 法 实现 混合 型 数 
的 差 值 。 据 的 匿名 化 。 

对 比 MDAV 和 GRAV 两 种 算法 发 现 : MDAV 和 GRAV 算 
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